20萬本盜版書都在「book 3」,AI巨頭從這偷數據!這是什麼?上傳者為何沒在怕?
20萬本盜版書都在「book 3」,AI巨頭從這偷數據!這是什麼?上傳者為何沒在怕?

為了訓練大型語言模型,OpenAI、Meta、谷歌、微軟等公司未經許可,從網路上收割了數百萬受版權保護的作品,在版權法的灰色地帶中遊移。

如今,OpenAI 目前正面臨大量的官司,原告稱該公司訓練數據集中的大多數書籍來自盜版來源和非授權網站。一旦被判侵權,公司有可能將面臨巨額罰款或重構算法的局面。這也導致,如今 AI 公司越來越不願意分享 AI 訓練數據的詳細訊息。

但一些公開的盜版語料庫已經被盯上。

近日,有人發現一個叫Book3 的數據集,包含近20 萬本書籍,囊括村上春樹、史蒂芬·金等暢銷書作家的著作,這個數據集被用在了訓練AI 模型上,最近遭到反盜版組織的攻擊。

版權問題這把利刃,正懸在 AI 公司們的頭上,有搖搖欲墜之勢。

Books3,AI 公司的秘密

一直以來,對於 AI 模型的訓練數據並不完全透明。今年,多名美國作家針對 OpenAI 提起了集體訴訟,指控其使用盜版書籍來訓練語言模型,侵犯版權並違反了多項法律。

這些作家主張的證據很簡單,因為些他們從未同意 OpenAI 使用他們的作品,然而 ChatGPT 卻能提供他們作品的準確摘要,這讓他們認為這些訊息肯定是從某個地方獲取的。

根據早期 GPT 版本的研究論文,其訓練數據集有部分來自於「兩個基於網路的書籍語料庫」,它們被簡單地稱為「Books1」和「Books2」,這些數據集具體包含哪些作品比較含糊。 Books1 似乎是 bookcorpus,裡面有數百本書明確聲明「不得以商業或非商業複製和分發」。 Book2 則成為一個謎團,大多人猜測它們來自於「臭名昭著的影子圖書館網站」,如 Library Genesis、Z-Library、Sci-Hub 和 Bibliotik。

其中,Z-Library 成立於 2008 年,是網路最大的盜版電子書庫之一。2022 年 11 月,美國政府起訴兩名運營該網站的俄羅斯公民,這兩人在阿根廷被逮捕。

至於 GPT-4 的 45TB 訓練數據,其中包含什麼內容的訊息更加有限,OpenAI 多年來逐漸減少了其訓練數據的披露。

儘管目前沒有直接證據證明OpenAI 使用盜版網站來培訓 ChatGPT,但一些 AI 模型此前已經明確在盜版書籍上進行了訓練,包括使用「Books3」數據集的 AI 模型。

EleutherAI 的 Pythia 研究論文中提到,Pythia 是使用 Pile 數據集進行訓練的,而 Pile 數據集包含多個英語文本集,其中之一就是名為「Books3」的數據集。

Books3 是用於訓練 AI 的最著名的盜版書籍庫之一,最初是由 AI 開發人員和知名開源 AI 支持者 Shawn Presser 於 2020 年上傳。它包含 37 GB 的文本,包括 196640 本純文本格式的書籍,並在盜版網站 bibliotik 上託管。

「假設你想訓練一個世界級的GPT 模型,就像OpenAI 一樣。怎麼做?你沒有數據。現在你可以做到,現在每個人都這樣做。為你呈現『books3』,又名『all of bibliotik』」。 Shawn Presser 最早在社交平台上寫道。

開源AI支持者Shawn Presser於2020年上傳「books3」
開源AI支持者Shawn Presser於2020年上傳「books3」。
圖/ X(Twitter)

反盜版組織出手,Books3頻被下架

然而,反盜版組織也在採取行動,代表相關利益群體,試圖限制未經授權的 AI 訓練數據的使用。

這段時間,反盜版組織 Rights Alliance 發送刪除通知後,相關網站已將 Books3 數據集下線,導致嘗試訪問該數據集的用戶會看到 404 錯誤。 Rights Alliance 還聯繫了 AI 模型託管平台 Hugging Face(該網站託管了 Books3 下載連結)以及 EleutherAI。然而,儘管一些連結被下架,該數據集的副本並未消失,仍然在其他地方出現。

遭到針對後,Shawn Presser 繼續發布新的下載連結,他稱,除非反對者打算讓ChatGPT 下線,或者通過訴訟將其告到滅亡,否則,他希望每個人都能夠製作自己的ChatGPT,他還稱自己 「很樂意入獄10 個月(海盜灣創始人服過的最高刑期),因為我推動了科學進步並賦予了你們複製ChatGPT 的能力。」

「複製ChatGPT這樣的模型的唯一方法,是建立像Books3 這樣的數據集。」Shawn Presser 稱:「每個營利性公司都會秘密地這樣做,不會將數據集發布給公眾。」「沒有Books3,我們就生活在一個只有OpenAI 和其他兆元等級公司才能訪問這些書籍的世界中,這意味著你不能製作自己的ChatGPT。沒有人能。只有巨頭公司才有資源做到這一點。」

包括 Meta 在內的一些公司曾經使用過 Book3,另外,Meta、谷歌都使用過的 C4 訓練數據集也被詬病過,現在這些公司對其語言模型中的內容更為保密。

Meta 的Llama 2 增加了40%的數據,但在其白皮書中,該公司對其最新的大語言模型使用了什麼數據更為猶豫,唯一提到的是「一個新的混合的公開可用在線數據」。隨著 AI 和版權之間的摩擦升溫,公司越來越不願意分享 AI 訓練數據的詳細訊息。

萬名作家聯名反對

超過一萬名作家已經在敦促 AI 公司停止未經許可使用其作品,他們不希望 AI 模仿其作品並學會寫作,除非科技公司為此付費。

美國的作家協會已經向巨頭們發了一封公開信,包括OpenAI、谷歌、Meta、Stability AI、IBM 和微軟公司的各大CEO,要求他們停止未經許可使用他們的作品,或對使用作品進行補償。

其中包括《達文西密碼》作者丹·布朗、《飢餓遊戲》作者蘇珊·柯林斯、《使女的故事》作者瑪格麗特·阿特伍德、《自由》作者喬納森·弗蘭岑等人都簽署了這封公開信,簽署的作家名單長達100 多頁。

目前,該作家協會正嘗試先在不提起訴訟的情況下解決爭端,因為「訴訟需要大量的資金,而且需要很長時間。」

作家連署抗議
作家連署抗議。
圖/ 美國作家協會

但也有一些文學界人士願意直接在法庭上與科技公司對抗,控訴 Meta 或 OpenAI 等使用盜版來訓練他們的 AI。此外,文學經紀人們正在與出版商商討,要更新出版合約條款,禁止未經授權的 AI 訓練用途,大部分出版商都願意限制 AI 使用他們的出版物。

根據美國作家協會的調查,90% 的作家認為,作家應該獲得對其作品用於訓練生成式人工智慧的補償,65% 的作家支持建立一個集體授權制度,以補償作者的作品被用於訓練生成式AI。

此外,69% 的作家認為他們的職業受到生成式 AI 的威脅,70% 的作家認為出版商將開始使用 AI 來完全或部分生成書籍,取代人類作者。

作家們要求立法,保障哪些權益?

除了發公開信、打官司、完善合約,出版業還在進一步尋求立法。

美國作家協會的人正在遊說制定相關法律、法規和政策:在同意方面,要求在生成式人工智慧中使用作家作品時獲得許可;在補償方面,為那些希望允許其作品用於生成式人工智慧培訓的作家提供補償;在透明度方面,要求人工智慧開發者透明披露他們用於培訓其人工智慧的作品。

他們也期望,生成式 AI 的輸出使用到作家的作品時,要獲得許可並建立相應的補償機制,或者當在提示中使用作家的姓名、身份或作品標題時,也應獲得許可。此外,他們要求作者、出版商、平台和市場標明 AI 生成的作品,並在作品很大一部分(例如超過 10-20%)由 AI 生成時進行標識。

「我們需要確保人類創作者得到補償,這不僅是為了創作者本身,而是為了確保我們的書籍和藝術繼續反映出我們的真實和想像的經驗,開拓我們的思維方式,教導我們新的思維方式,並推動我們社會的發展,而不是重複舊觀念。」該作家協會在官方聲明中稱。

NYT VS OpenAI

除了作家和藝術家,其他類型的內容創作者,也紛紛加入起訴 AI 公司的行列,一些新聞機構批評科技公司未經授權或補償,就使用他們的內容。

比如,紐約時報正在考慮對 OpenAI 提起訴訟,稱 OpenAI 的ChatGPT使用了該報的數據進行訓練,而未經紐約時報許可。在過去的幾個月裡,OpenAI 和紐約時報一直在試圖達成一項有關紐約時報內容的許可協議。但談判還未有結果,存在破裂的可能。

在最近對其服務條款政策的更改中,紐約時報明確禁止將其龐大的媒體檔案用於訓練「任何軟件程序,包括但不限於訓練機器學習或人工智慧(AI)系統」的目的。該政策適用於紐約時報的文本內容、照片、影片和數據,並明確禁止網絡爬蟲訪問,來訓練專有產品。

這裡做一個假設,如果法院判定OpenAI 等AI 公司的訓練行為屬於侵權,OpenAI 可能會被迫停止使用受版權保護的數據,並在不使用受版權保護的數據的前提下,重新構建其算法,這會引發多大的麻煩?

科技公司也試圖與新聞媒體建立關係。谷歌曾試圖爭取像紐約時報、華盛頓郵報等新聞機構的支持,向他們推銷 AI 工具。還有 AI 公司向新聞非營利機構提供微薄的慈善捐款。

期間,也有新聞機構不那麼強硬。美聯社今年就與OpenAI達成了一項為期兩年的許可協議,同意將美聯社的內容授權給 OpenAI 使用訓練。作為回報,OpenAI 提供了美聯社訪問「OpenAI 的技術和產品專業知識」的權利。

《紐約時報》
圖/ 《紐約時報》

懸在AI公司們頭上的利刃

AI 公司抓取海量網路數據,已經導致法律問題的出現,起訴 AI 公司的人正在變得越來越多。

今年,美國一間律師事務所相繼對 OpenAI、Meta 等巨頭提起訴訟,指控他們未經同意、未經授權或未經補償地佔用成千上萬名作家的作品,來訓練他們的大語言模型。行業預計訴訟規模將很龐大,因為其他內容創作者也有可能受此啟發採取法律行動。

其他生成 AI 公司,如 AI 圖像生成工具 Stable Diffusion 背後的 Stability AI,也惹上版權官司。 Stable Diffusion 是在 LAION-5B 數據集上進行訓練的,數據集包含 58.5 億個圖像文本對,大多數都受版權保護。 Getty Images 正在起訴 Stability AI,指控其未經授權在超過 1200 萬張 Getty Images 上訓練 AI 圖像生成模型。

許多藝術家和利益相關者也表示不滿,對 Stability AI、DeviantArt 和 Midjourney 等公司提起訴訟,指控他們侵犯版權、侵犯肖像權、不正當競爭和不正當獲利,尋求賠償和禁令。

微軟推出的編碼工具 Copilot 也面臨集體訴訟。 Copilot 是 GitHub 與 OpenAI 合作開發的基於人工智慧的自動編碼產品,主要利用 GitHub 上的公共代碼庫,在數十億行公開可用的代碼上進行了訓練,能通過簡單提示替用戶編寫代碼。開源程式設計師和律師指控他們從事開源軟件盜版,被告包括 GitHub、微軟及其人工智慧技術合作夥伴 OpenAI。

AI公司的利器:公平使用原則

如果要打官司,AI公司可能會援引所謂的「公平使用原則」來為其辯護,該原則允許在某些情況下,無需許可即可使用作品,包括教學、批評、研究和新聞報導。問題是,AI 訓練是否適用「公平使用原則」。

幾年前,美國作家協會也曾起訴谷歌,理由是谷歌未購買「圖書館」項目中收錄的書籍,當時,聯邦上訴法院判決認為,谷歌為其圖書館項目掃描了數百萬本書的數字副本,是合法的「公平使用」,而非侵犯版權。關鍵在於,谷歌的數字圖書館並沒有為這些書創造出「重大市場替代品」,這意味著它與原作並無競爭關係。

目前,各國政府正努力將生成式 AI 納入立法範疇。歐盟也在制訂一項 AI 法案,該法案將迫使公司將訓練模型訊息透明化。上半年,美國作家協會已兩次訪問國會山莊,討論生成式 AI 和作家保護措施的問題,涉及的問題包括集體授權和版權保護、反壟斷豁免權以及 AI 標籤和透明度要求。

「除非國會採取干預措施,以確保生成式人工智慧技術的開發和使用受到監管,否則驅動原創表達並豐富我們文化交流的重要版權激勵,將變得毫無意義。 」該作家協會在官方聲明中稱。

從現有輿論看,雖然一些人擔心訓練AI 可能會引發版權問題,但也有人認為,OpenAI 等AI 公司不需要特別許可來訓練模型,版權擔憂不利於AI 發展進步;有人則認為,取得作者的同意是至關重要的,創作者應該有拒絕的權利,或者,AI 公司至少應該購買訓練數據的書籍。

技術正在做人類歷史上從未發生過的事情,AI 訓練數據方面的開源精神應該有底線嗎?未來的法律是掣肘還是保護?如何平衡 AI 的發展與尊重人類創作權益,可能是和「通用人工智慧何時到來」是同樣重要的問題。

延伸閱讀:《紐約時報》擋OpenAI爬蟲,8千作家也怒討版權費

本文授權轉載自:極客公園

責任編輯:錢玉紘

關鍵字: #openai
往下滑看下一篇文章
45 年製鎖老廠的智慧進化:金泰工業如何用數位轉型打造第二成長曲線?
45 年製鎖老廠的智慧進化:金泰工業如何用數位轉型打造第二成長曲線?

這是一場以成長為名的轉型故事,主角是成軍超過 45 年的製鎖大廠—金泰工業。

走過近半個世紀的製鎖歲月,金泰深知,在數位浪潮席捲下,守成即是退步。尤其當物聯網趨勢興起,讓鎖具不再只是單純的硬體,而是結合系統與服務的智慧管理平台,金泰敏銳地看見這場轉變背後的全新市場路徑,進而在原有 B2B 製造基礎上,創立全新品牌「安捷鎖( A Good Lock )」,進軍 B2C 智慧門鎖市場,為公司開拓第二成長曲線。

為了支撐這條品牌升級之路,金泰經營管理層在智炬科技的輔導下,從經營思維、企業文化、商業模式到作業流程重新盤點,並導入叡揚資訊的雲端服務方案,逐步落實管理標準化、流程自動化與客戶資料整合。這場轉型不只是系統導入,更是一場由內部管理能力出發,支撐外部品牌成長的組織升級工程。

金泰早期以 OEM、ODM 模式經營
金泰早期以 OEM、ODM 模式經營,產品包括箱櫃鎖片鎖與電源開關鎖。
圖/ 金泰工業

早期金泰以箱櫃檔片鎖及電源開關鎖為核心產品,透過代工製造模式服務企業客戶。隨著物聯網趨勢興起,開始跨足電子鎖領域,在產品中導入指紋辨識,感應刷卡,密碼與手機連動等電子模組,成功敲開智慧生活的大門。

金泰副總經理曾慧芳表示,金泰在切入消費市場的過程中觀察到,目前市面上的智慧門鎖大致可分為兩類:一類是價格較高的歐美進口品牌;另一類則是透過網購流入、缺乏售後保障的產品。無論是哪一類,主要都以新建大樓為應用場景,較難滿足既有住宅的實際需求。

「臺灣老公寓常見木門、鐵門等配置,門型與結構條件較為多元,市面上主流智慧鎖未必能直接適用;另一方面,更換整片門板對不少家庭而言也是一筆不小的支出。基於這樣的在地住宅條件,金泰將自身長期累積的鎖具製造與研發經驗,結合外部夥伴的電子模組與應用技術,投入更符合臺灣住宅條件的智慧門鎖開發。目標不是單純把智慧鎖賣進市場,而是讓既有住宅也能在不大幅更動門體結構的前提下,以更便利、可負擔的方式完成智慧升級。

在通路策略上,金泰也展現了不同於業界的佈局。相較於仰賴大型零售賣場、電商平台等模式,金泰選擇與遍佈各地的社區鎖匠合作。曾慧芳認為,社區鎖匠是消費者心中具備高度信任感的服務節點,且具備專業知識,不僅能販售產品,更能提供安裝與售後維修服務,成為串聯原廠與終端用戶的重要服務橋樑。

叡揚資訊2
金泰工業副總經理曾慧芳表示,社區鎖匠是消費者心中具備高度信任感的服務節點,且具備專業知識,成為串聯金泰與終端用戶的重要服務橋樑。
圖/ 數位時代

築起品牌夢,金泰以內部升級鋪路,迎戰全新商業模式

因應智慧鎖帶來的全新商業模式,金泰意識到,未來面對的已經不只是企業客戶,也包含鎖匠以及終端使用者。這代表團隊需要更完整的客戶管理、服務追蹤與互動機制,才能支撐從代工製造走向品牌經營的轉變。

金泰早在 2022 年前後,便開始透過智炬科技輔導與政府相關數位轉型資源對接,例如中企署 N 世代課程,產發署精實蹲點計畫,系統性盤點企業營運流程與員工賦能與接班轉型佈局,並以內部產出的數轉藍圖,於 2024 年通過產發署中小製造業接班傳承數位轉型主題式研發計畫案的規劃案為啟動數位轉型布局的起點。

金泰製造經理黃智政說明,過去內部雖已使用 Excel 與 ERP 輔助日常作業,但多數流程仍仰賴紙本、人工記錄與部門間轉傳。 ERP 主要協助處理訂單、生產與進銷存等內部管理需求,卻難以完整承接業務拜訪、客戶互動、售後服務、鎖匠通路與終端消費者資料等外部市場資訊。當資料分散在個人電腦、紙本紀錄或不同部門手中,不僅增加重複抄寫與管理負擔,也讓企業難以及時掌握市場變化與客戶需求。

以客戶經營為例,客戶與公司的往來紀錄,多半保存在業務個人的電腦或筆記本中,難以被整合,也不容易在團隊之間透明共享。因此,若遇到業務同仁外務或請假時,客戶只能被動等待,而當公司要推新產品、找新市場,或需要其他同仁協助一起服務客戶時,也很難快速掌握客戶全貌。

面對這樣的挑戰,金泰管理團隊先透過外部課程與企業參訪,建立對數位轉型的共識,再回頭審視自身的商業模式、核心價值與關鍵活動,梳理銷售前中後、採購、生管到包裝等各職能的工作流程,找出卡點,隨後再導入叡揚資訊 Vital CRM 客戶關係管理系統、 C.ai 對話式服務平台聊天機器人、 Vital BizForm 智慧表單等解決方案,重新設計更符合實際習慣的運作方式。

建立客戶統一視圖、決策效率提升 30% ,用數據揪出商機

協助金泰推動數位轉型的智炬科技總經理歐俋伶指出,當金泰從接單生產逐步走向計劃性生產,更需要即時掌握市場需求、客戶回饋與銷售趨勢,才能反過來驅動產品開發與營運決策。因此,規劃金泰選擇以 Vital CRM 作為核心工具,運用成熟穩定的雲端服務架構,快速建立客戶資料整合、商機追蹤與管理報表機制,而非一開始就投入高成本、高維護負擔的客製化系統開發。

金泰業務部經理楊順婷也認同表示, Vital CRM 不僅讓客戶資料從過去分散於個人手中,轉變為團隊共享的資產,更協助公司建立完善的代理人機制,確保客戶服務不中斷。更重要的是,隨著數據持續累積,管理層還能藉由 Vital CRM 中的 Insight 報表加速決策效率。

叡揚資訊3.JPG
金泰製造經理黃智政指出, Insight 的可視化圖表,讓管理決策效率提升約 30%。
圖/ 數位時代

「 Insight 的可視化圖表,讓管理決策效率提升約 30% ,」黃智政說,過去若要掌握市場分布、客戶類型與商機變化,往往需要由人員跨表單、跨部門彙整資料,不僅耗時,也容易因資料格式不一而影響判讀。智炬科技在協助金泰進行職能別流程梳理時,進一步將銷售前端的詢價、報價、客戶需求與商機標籤,串聯到後端物管、廠務與組立包裝出貨等支援流程,讓市場資訊不再停留於業務個人經驗,而能成為跨部門共同判斷的依據。導入 Insight 後,管理層透過可視化圖表即時掌握關鍵指標,包含市場需求變化、熱門產品類型、報價密集度與潛在備料需求,並同步拉動資源體系的物管與廠務端的監控看板。如此一來,會議討論不再只是「等待資料整理」,而是能根據數據判斷下一步,提前協調備料、生產排程與交付節奏,讓售前商機、內部支援與客戶服務形成更即時的決策閉環。

金泰 Insight 報表
金泰團隊藉由 Insight 報表即時洞察需求動態,協調備料、排程、交期,把各個環節變得清晰可控。
圖/ 金泰工業

此外, Vital CRM 也進一步擴大商機經營的可能性。過去從展會蒐集的名片,多半僅在特定產品推出時才會進行再行銷,如今透過多元標籤記錄客戶潛在需求,擴大再行銷的範圍與市場。同時,金泰也將客戶滿意度調查從傳統 Word 表單改為 Vital BizForm 線上表單,便利的填寫體驗不僅讓回收率提升 17% ,更藉助統計功能即時分析市場回饋。

跨入 B2C :整合 C.ai 、 Vital BizForm 與 LINE ,優化服務流程

叡揚資訊5
金泰以台灣人最熟悉的 LINE 作為服務入口,鎖匠與消費者的訂單及互動資料,透過 C.ai 建置的聊天機器人自動回傳 Vital CRM,省去人工轉填作業。
圖/ 金泰工業

在 B2B 基礎上,金泰進一步將 Vital CRM 延伸應用至 B2C 場景,並結合 LINE 官方帳號、Vital BizForm 與 C.ai 對話式服務平台,打造從鎖匠通路到終端消費者的完整服務流程。

以鎖匠通路為例,考量合作鎖匠日常最熟悉的工具就是 LINE ,金泰運用 Vital BizForm 製作電子化訂單,並整合 LINE 官方帳號,讓鎖匠可直接查詢產品規格、取得安裝指引並完成下單。訂單資料再透過 C.ai 建置的聊天機器人回傳至 Vital CRM ,減少人工重複登打,也讓通路資料能被系統化紀錄並能與製造廠內備貨機制同步。

在消費者端,金泰同樣透過 LINE 建立服務入口,提供產品介紹、操作說明與保固申請功能。其中,保固卡同樣以 Vital BizForm 來設計,消費者線上填寫完成後, C.ai 會將相關資訊傳至 Vital CRM ,更會同步標註負責服務的鎖匠資訊,未來若產品需維護或有操作疑問,就能立即追溯最初負責的鎖匠,快速進入服務流程。

透過這樣的數位串接,所有互動資料皆回流至 Vital CRM ,形成完整的客戶輪廓,包括產品型號、安裝紀錄與服務歷程,不僅降低了客服負擔,更幫助鎖匠持續經營回頭客,讓客人獲得更完善的服務,創造三贏局面。

展望未來,金泰也計畫在既有數位基礎上,持續深化資料治理與知識管理能力,例如導入叡揚知識管理系統,將產品知識、安裝經驗、售後紀錄與市場回饋進一步沉澱為企業資產。對金泰而言,數位轉型的目的不只是提升內部效率,更是為品牌經營、通路共創與海外布局奠定基礎。未來,隨著「安捷鎖」持續深耕台灣並拓展國際市場,金泰也將從傳統製鎖廠,逐步走向結合製造實力、在地服務與智慧科技的安防品牌。

叡揚資訊6.jpg
金泰工業以「安捷鎖」品牌切入智慧門鎖市場,並透過數位轉型為智慧鎖業務與新市場布局奠定基礎。
圖/ 金泰工業

認識金泰工業

安捷鎖 AG LOCK | 守護您進出家門的優雅從容

免費試用

Vital CRM 客戶關係管理

Vital BizForm 智慧表單

C.ai 對話式服務平台聊天機器人

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
代理式商務連動百兆商機
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓